Transaction Table2.0的增量存储和处理架构的特殊设计主要集中在五个模块:数据接入、计算引擎、数据优化服务、元数据管理、数据文件组织,其他部分与MaxCompute通用的架构一致。本文为您介绍Transaction Table2.0的核心架构要点。
Transaction Table2.0的架构示意图如下。
其中:
数据接入
支持各数据源全量和近实时增量导入功能:MaxCompute联合相关产品定制开发多种数据接入工具,例如MaxCompute定制开发的Flink Connector,DataWorks的数据集成等,用来支持高效的近实时增量数据导入。这些工具会对接MaxCompute的数据通道服务Tunnel Server,主要支持高并发分钟级增量数据写入。
支持各数据源的增全量数据批量写入:支持MaxCompute SQL以及其它一些接口,用于支持增全量数据高效的批量写入。
计算引擎
主要包含MaxCompute自研的SQL引擎,负责Time travel和增量场景下的SQL DDL/DML/DQL的语法解析、优化和执行链路。
数据优化服务
主要由MaxCompute的Storage Service来负责智能地自动管理增量数据文件,其中包括小文件合并Clustering、数据COMPACTION、数据排序等优化服务。对于其中部分操作,Storage Service会根据数据特征、时序等多个维度综合评估,自动执行数据优化任务,尽可能保持稳定高效的数据存储和计算状态。
元数据管理
主要负责增量场景下事务并发冲突管理、数据版本管理、Time travel管理、元数据更新和分析等。
数据文件组织
主要包含对全量和增量数据文件格式的管理以及读写相关的模块。
反馈
- 本页导读 (1)
文档反馈